Train-Test Split এবং Cross-Validation

Machine Learning - সাইকিট-লার্ন (Scikit-Learn)

207

মেশিন লার্নিং মডেল তৈরি এবং মূল্যায়ন করার সময়, Train-Test Split এবং Cross-Validation দুটি গুরুত্বপূর্ণ পদ্ধতি, যা মডেলের পারফরম্যান্স যাচাই এবং অতিরিক্ত প্রশিক্ষণের (overfitting) সমস্যা কমানোর জন্য ব্যবহৃত হয়। নিচে উভয়ের বিশদ বর্ণনা দেওয়া হলো:

১. Train-Test Split

Train-Test Split হলো একটি সাধারণ এবং সহজ পদ্ধতি, যেখানে ডেটাসেটকে দুটি আলাদা অংশে ভাগ করা হয়: ট্রেনিং সেট (training set) এবং টেস্ট সেট (test set)। ট্রেনিং সেটে মডেল প্রশিক্ষিত হয়, এবং টেস্ট সেটে মডেলটির পারফরম্যান্স মূল্যায়ন করা হয়। এই পদ্ধতিতে, ডেটার কিছু অংশ মডেল প্রশিক্ষণের জন্য ব্যবহার হয় এবং বাকি অংশ মডেল যাচাইয়ের জন্য ব্যবহার হয়।

প্রক্রিয়া:

ডেটা ভাগ করা: ডেটাসেটকে সাধারণত ৭০%-৮০% ট্রেনিং সেট এবং ২০%-৩০% টেস্ট সেটে ভাগ করা হয়।
মডেল প্রশিক্ষণ: ট্রেনিং সেটে মডেল প্রশিক্ষিত হয়।
মডেল মূল্যায়ন: টেস্ট সেটে মডেলটি পরীক্ষা করা হয় এবং এর পারফরম্যান্স পরিমাপ করা হয় (যেমন, একুরেসি, রিগ্রেশন মেট্রিক্স ইত্যাদি)।

উদাহরণ:

from sklearn.model_selection import train_test_split

# X হল ইনপুট ফিচার এবং y হল টার্গেট ভ্যালু
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

এখানে:

X_train এবং y_train ট্রেনিং ডেটা,
X_test এবং y_test টেস্ট ডেটা হবে।
test_size=0.2 নির্দেশ করে যে ২০% ডেটা টেস্ট সেটে যাবে এবং বাকি ৮০% ট্রেনিং সেট হবে।

উপকারিতা:

সহজ এবং দ্রুত বাস্তবায়ন।
দ্রুত পারফরম্যান্স যাচাই করতে সাহায্য করে।

সীমাবদ্ধতা:

একক টেস্ট সেটের ওপর ভিত্তি করে মডেলের পারফরম্যান্স পরিমাপ করা হয়, তাই কখনো কখনো এটি অসম্পূর্ণ বা পক্ষপাতিত্বপূর্ণ হতে পারে।
মডেল প্রশিক্ষণের জন্য শুধুমাত্র একটিমাত্র ট্রেনিং সেট ব্যবহার করা হয়, যা মডেলটির সক্ষমতা সীমিত করতে পারে।

২. Cross-Validation

Cross-Validation হলো একটি আরও উন্নত পদ্ধতি যেখানে ডেটাসেটকে একাধিক ভিন্নভাবে ভাগ করা হয় এবং মডেলটি বিভিন্ন অংশের ওপর প্রশিক্ষণ ও পরীক্ষা করা হয়। এটি Train-Test Split এর তুলনায় বেশি নির্ভুল এবং বৈচিত্র্যময় পারফরম্যান্স প্রদান করে, কারণ এটি মডেলের পারফরম্যান্স পরীক্ষা করতে অনেকগুলো টেস্ট সেট ব্যবহার করে।

K-Fold Cross-Validation হলো Cross-Validation এর সবচেয়ে জনপ্রিয় পদ্ধতি। এই পদ্ধতিতে ডেটাসেটকে K সংখ্যক ভাগে ভাগ করা হয় এবং মডেলটি প্রতিটি ভাগে প্রশিক্ষণ এবং পরীক্ষা করা হয়।

প্রক্রিয়া:

ডেটা ভাগ করা: ডেটাসেটকে K সংখ্যক ভাগে ভাগ করা হয়।
প্রশিক্ষণ এবং মূল্যায়ন: প্রতিটি ভাগ একবার টেস্ট সেট হিসেবে ব্যবহার হয় এবং বাকি K-1 ভাগ প্রশিক্ষণ সেট হিসেবে ব্যবহৃত হয়।
মডেল পারফরম্যান্স: মডেলটি প্রতিটি ভিন্ন ভিন্ন টেস্ট সেটে পরীক্ষা করা হয় এবং পরে এর গড় পারফরম্যান্স নির্ধারণ করা হয়।

উদাহরণ:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()

# 5-fold cross-validation
scores = cross_val_score(model, X, y, cv=5)

print("Cross-validation scores:", scores)
print("Average score:", scores.mean())

এখানে cv=5 নির্দেশ করে যে ডেটা ৫টি ভাগে বিভক্ত হবে এবং ৫টি আলাদা পরীক্ষা হবে।

উপকারিতা:

সঠিক পারফরম্যান্স মূল্যায়ন: এটি পুরো ডেটাসেটের ওপর ভিত্তি করে পারফরম্যান্স পরিমাপ করতে সাহায্য করে এবং মডেলের পূর্বাভাসে বৈচিত্র্য কমাতে সহায়ক।
কমপ্লেক্সিটি কমানো: অতিরিক্ত প্রশিক্ষণের (overfitting) ঝুঁকি কমাতে সাহায্য করে।

সীমাবদ্ধতা:

সময়সাপেক্ষ: এই পদ্ধতিটি সময় সাপেক্ষ হতে পারে, কারণ প্রতিটি ভিন্ন অংশে প্রশিক্ষণ এবং পরীক্ষা করা হয়।
কম্পিউটেশনাল খরচ: K-Fold Cross-Validation এর মাধ্যমে একাধিক মডেল প্রশিক্ষণ করতে হয়, তাই এটি কম্পিউটেশনাল খরচ বেশি হতে পারে।

Train-Test Split vs Cross-Validation

বৈশিষ্ট্য	Train-Test Split	Cross-Validation
ডেটা ভাগ করা	একক ভগ্নাংশে ভাগ করা হয়	একাধিক ভাগে ভাগ করা হয়
পদ্ধতি	ডেটাকে ট্রেনিং এবং টেস্ট সেটে ভাগ করা হয়	মডেলটি বিভিন্ন অংশে প্রশিক্ষণ এবং পরীক্ষা হয়
পারফরম্যান্স মূল্যায়ন	একবার পরীক্ষা করা হয়	একাধিকবার পরীক্ষা করা হয়
উপকারিতা	সহজ এবং দ্রুত	আরও সঠিক এবং নির্ভুল পারফরম্যান্স প্রদান
সীমাবদ্ধতা	পক্ষপাতিত্বপূর্ণ হতে পারে	সময়সাপেক্ষ এবং কম্পিউটেশনাল খরচ বেশি

সারাংশ

Train-Test Split সহজ এবং দ্রুত, কিন্তু কখনও কখনও এটি অস্থির বা পক্ষপাতিত্বপূর্ণ ফলাফল দিতে পারে।
Cross-Validation একটি শক্তিশালী পদ্ধতি, যা মডেলের প্রকৃত পারফরম্যান্স পরিমাপ করতে সহায়ক, কিন্তু এটি সময়সাপেক্ষ এবং কম্পিউটেশনাল খরচ বেশি হতে পারে।

আপনি যদি বড় ডেটাসেটের সাথে কাজ করেন এবং সঠিক ফলাফল চান, তাহলে Cross-Validation ব্যবহার করা ভালো। তবে ছোট ডেটাসেটের জন্য Train-Test Split একটি ভালো পদ্ধতি হতে পারে।

Content added By

SATT Academy

Train-Test Split এর প্রয়োজনীয়তা

214

Train-Test Split হলো একটি মৌলিক কৌশল মেশিন লার্নিং মডেল প্রশিক্ষণ (training) এবং মূল্যায়ন (testing) প্রক্রিয়া আলাদা করার জন্য। এটি ডেটাকে দুটি আলাদা ভাগে বিভক্ত করে: ট্রেনিং সেট (Training Set) এবং টেস্ট সেট (Test Set)। এই বিভাজনটি মডেলের সাধারণীকরণ ক্ষমতা যাচাই করতে এবং ওভারফিটিং (overfitting) থেকে রক্ষা করতে অত্যন্ত গুরুত্বপূর্ণ।

নিচে Train-Test Split এর প্রয়োজনীয়তা এবং এর গুরুত্ব ব্যাখ্যা করা হলো:

১. মডেল প্রশিক্ষণ এবং মূল্যায়ন আলাদা করা

ট্রেনিং সেট (Training Set):
মডেলকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত ডেটা। এটি মডেলটি শিখে, প্যাটার্ন এবং সম্পর্ক সনাক্ত করতে সহায়ক।
টেস্ট সেট (Test Set):
মডেলটির সঠিকতা যাচাই করার জন্য ব্যবহৃত ডেটা, যা মডেলটি কখনোই দেখেনি। এটি মডেলের পারফরম্যান্স মূল্যায়ন করার জন্য ব্যবহৃত হয়।

যদি পুরো ডেটা প্রশিক্ষণ এবং মূল্যায়নের জন্য ব্যবহার করা হয়, তবে মডেলটি সেই ডেটার উপর ভালো ফলাফল দিতে পারে, কিন্তু নতুন, অজ্ঞাত ডেটার উপর ভালো পারফর্ম নাও করতে পারে। তাই, ডেটাকে ট্রেনিং এবং টেস্ট সেটে ভাগ করা অত্যন্ত গুরুত্বপূর্ণ।

২. মডেলের সাধারণীকরণ ক্ষমতা যাচাই

মডেলটির generalization ability বা সাধারণীকরণ ক্ষমতা হলো তার ক্ষমতা নতুন, অজ্ঞাত ডেটা থেকে শিখে সঠিকভাবে পূর্বাভাস (prediction) দিতে। ট্রেনিং সেট থেকে শিখে যদি মডেলটি শুধুমাত্র ট্রেনিং ডেটা পর্যন্ত সীমাবদ্ধ থাকে, তবে সেটিকে ওভারফিটিং (Overfitting) বলা হয়।

যত বেশি ডেটা মডেল শিখে, তত ভালো তার পারফরম্যান্স হতে পারে, তবে একই সময়ে মডেলটিকে নতুন ডেটার জন্য প্রযোজ্য করে তুলতে টেস্ট ডেটার প্রয়োজন। টেস্ট ডেটা ব্যবহার করে মডেলটির সাধারণীকরণ ক্ষমতা যাচাই করা হয়, যাতে মডেলটি অজ্ঞাত ডেটার উপরও ভালো কাজ করে।

৩. ওভারফিটিং এবং আন্ডারফিটিং থেকে রক্ষা

ওভারফিটিং (Overfitting):
যদি মডেলটি ট্রেনিং ডেটার উপর খুব বেশি মানানসই হয় এবং নতুন ডেটার উপর খারাপ পারফর্ম করে, তবে তা ওভারফিটিং হতে পারে। এটি টেস্ট ডেটার মাধ্যমে পরিমাপ করা যায়।
আন্ডারফিটিং (Underfitting):
যদি মডেলটি ট্রেনিং ডেটারও পর্যাপ্ত শিখতে না পারে, তাহলে এটি আন্ডারফিটিং হতে পারে। এই সমস্যাও টেস্ট ডেটার মাধ্যমে যাচাই করা হয়।

এভাবে, ট্রেনিং এবং টেস্ট ডেটা আলাদা করা হলে, মডেলটির কর্মক্ষমতা সঠিকভাবে মূল্যায়ন করা যায় এবং ওভারফিটিং বা আন্ডারফিটিংয়ের ঝুঁকি কমানো যায়।

৪. মডেল মূল্যায়ন এবং পারফরম্যান্স পরিমাপ

টেস্ট ডেটা ব্যবহারের মাধ্যমে মডেলের একুরেসি (accuracy), প্রিসিশন (precision), রিকল (recall), ফ১ স্কোর (F1 score), রাইজ স্কোর (ROC-AUC) ইত্যাদি মেট্রিক্স মাপা হয়। এই মূল্যায়ন মডেলের প্রকৃত ক্ষমতা এবং নতুন ডেটা বা বাস্তব দুনিয়ায় এটি কেমন কাজ করবে তা নির্ধারণ করতে সহায়ক।

৫. মডেল সিলেকশন

একই ধরনের বিভিন্ন মডেল পরীক্ষা করার জন্য, আপনাকে টেস্ট ডেটার উপর প্রতিটি মডেলের পারফরম্যান্স তুলনা করতে হবে। এতে সবচেয়ে ভালো মডেলটি নির্বাচন করা যায়। এভাবে, টেস্ট ডেটা এমনভাবে ব্যবহৃত হয় যাতে মডেলটির ভবিষ্যতের পারফরম্যান্স সম্পর্কে একটা সঠিক ধারণা পাওয়া যায়।

৬. কাস্টম মডেল টিউনিং এবং ক্রস-ভ্যালিডেশন

ক্রস-ভ্যালিডেশন একটি প্রক্রিয়া যেখানে ডেটাকে একাধিক ভাগে বিভক্ত করে, এবং প্রত্যেকটি অংশকে একবার টেস্ট সেট হিসেবে ব্যবহার করা হয়। এতে মডেলের পারফরম্যান্সের আরও নির্ভুল মূল্যায়ন করা যায়। কিন্তু train-test split প্রক্রিয়া এটির একটি সাধারণ এবং দ্রুত উপায়।

সারাংশ

Train-Test Split মেশিন লার্নিং মডেলের প্রশিক্ষণ এবং মূল্যায়ন প্রক্রিয়ায় অত্যন্ত গুরুত্বপূর্ণ। এটি:

মডেলের সাধারণীকরণ ক্ষমতা যাচাই করে,
মডেলটির সঠিকতা মূল্যায়ন করতে সহায়ক,
ওভারফিটিং এবং আন্ডারফিটিং থেকে রক্ষা করে,
সঠিকভাবে মডেল পারফরম্যান্স পরিমাপ করতে সহায়ক।

তাহলে, ডেটাকে train-test split করে মডেল প্রশিক্ষণ এবং মূল্যায়ন করা একটি অত্যন্ত গুরুত্বপূর্ণ পদক্ষেপ, যা মডেলের কার্যকারিতা নিশ্চিত করতে সাহায্য করে।

Content added By

SATT Academy

train_test_split() ফাংশন ব্যবহার

195

Scikit-Learn এর train_test_split() ফাংশনটি ডেটাকে ট্রেনিং এবং টেস্ট সেটে ভাগ করার জন্য ব্যবহৃত হয়। মেশিন লার্নিং মডেল তৈরি করার সময়, ডেটা সাধারণত দুটি ভাগে ভাগ করা হয়:

ট্রেনিং সেট (Training set): এটি মডেলটিকে প্রশিক্ষণ (training) দেওয়ার জন্য ব্যবহৃত হয়।
টেস্ট সেট (Test set): এটি মডেলটির পারফরম্যান্স পরীক্ষা (evaluation) করার জন্য ব্যবহৃত হয়।

এই ফাংশনটি ডেটার একটি নির্দিষ্ট শতাংশ ভাগ (যেমন 80% ট্রেনিং এবং 20% টেস্ট) নির্ধারণ করতে সহায়ক।

`train_test_split()` ফাংশনের সিনট্যাক্স:

from sklearn.model_selection import train_test_split

train_test_split(X, y, test_size=0.25, random_state=None, shuffle=True)

প্যারামিটার:

X: ইনপুট ডেটা (features)। এটি একটি 2D array বা DataFrame হতে পারে।
y: টার্গেট ডেটা (labels)। এটি সাধারণত 1D array বা Series হবে।
test_size: টেস্ট ডেটার আংশিক অংশ। এটি একটি ভগ্নাংশ (যেমন, 0.2 = 20%) বা পূর্ণসংখ্যা (যেমন, 1000) হতে পারে।
train_size: ট্রেনিং ডেটার আংশিক অংশ (অপশনাল)। যদি এটি নির্দিষ্ট না করা হয়, তবে এটি 1 - test_size এর সমান হবে।
random_state: র্যান্ডম সিড (seed) নির্ধারণ করে, যাতে একই ভাগ করে দেয়া হয় প্রতিবার এক্সিকিউট করলে। এটি পুনঃপ্রাপ্তি ও পুনঃপুনঃ ফলাফল প্রাপ্তির জন্য গুরুত্বপূর্ণ।
shuffle: ডেটাকে শাফল (shuffle) করার সিদ্ধান্ত নেয়। যদি True থাকে, ডেটা আগে শাফল করা হবে, অন্যথায় এটি ফলো হবে।

`train_test_split()` ফাংশন ব্যবহার উদাহরণ:

1. সাধারণ উদাহরণ

from sklearn.model_selection import train_test_split
import numpy as np

# ডেটা তৈরি করা
X = np.array([[1], [2], [3], [4], [5]])  # ইনপুট ফিচার
y = np.array([1, 2, 3, 4, 5])            # টার্গেট লেবেল

# ট্রেন এবং টেস্ট সেটে ভাগ করা (80% ট্রেনিং, 20% টেস্ট)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("X_train:", X_train)
print("X_test:", X_test)
print("y_train:", y_train)
print("y_test:", y_test)

আউটপুট:

X_train: [[2]
 [4]
 [5]
 [3]]
X_test: [[1]]
y_train: [2 4 5 3]
y_test: [1]

2. pandas DataFrame এর সাথে ব্যবহার:

import pandas as pd
from sklearn.model_selection import train_test_split

# pandas DataFrame তৈরি করা
data = {'Feature1': [1, 2, 3, 4, 5], 'Feature2': [5, 4, 3, 2, 1], 'Target': [0, 1, 0, 1, 0]}
df = pd.DataFrame(data)

# ইনপুট ফিচার এবং টার্গেট ডেটা আলাদা করা
X = df[['Feature1', 'Feature2']]  # ফিচার
y = df['Target']  # টার্গেট

# ট্রেন এবং টেস্ট সেটে ভাগ করা (80% ট্রেনিং, 20% টেস্ট)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("X_train:", X_train)
print("X_test:", X_test)
print("y_train:", y_train)
print("y_test:", y_test)

আউটপুট:

X_train:    Feature1  Feature2
1         2         4
0         1         5
4         5         1
3         4         2
X_test:    Feature1  Feature2
2         3         3
y_train: 1    1
0    0
4    0
3    1
Name: Target, dtype: int64
y_test: 2    0
Name: Target, dtype: int64

`train_test_split()` এর কিছু গুরুত্বপূর্ণ পয়েন্ট:

test_size: সাধারণত 0.2 বা 0.25 (20% বা 25%) টেস্ট সেটের জন্য ব্যবহৃত হয়, তবে এটি আপনার ডেটার আকার এবং প্রয়োজন অনুসারে পরিবর্তিত হতে পারে।
random_state: একটি নির্দিষ্ট মান (যেমন 42) সেট করা হলে, এটি একই ডেটাকে প্রতিবার ভাগ করে দেয়। এটি মডেল ট্রেনিংয়ের পুনঃপ্রাপ্তি নিশ্চিত করতে সহায়ক।
shuffle: ডেটাকে শাফল (shuffle) করার সময় নিশ্চিত করুন যে মডেলটি ডেটার প্রকৃত প্যাটার্ন শিখে এবং না যে ডেটার মধ্যে কোন ধারাবাহিকতা না থাকার কারণে এটি সঠিক ফলাফল দেয়।

সারাংশ:

train_test_split() ফাংশনটি ডেটাকে ট্রেনিং এবং টেস্ট সেটে ভাগ করার জন্য অত্যন্ত গুরুত্বপূর্ণ একটি ফাংশন যা Scikit-Learn লাইব্রেরির অংশ। এটি মডেল ট্রেনিংয়ের জন্য গুরুত্বপূর্ণ, কারণ এটি মডেলটির পারফরম্যান্স ঠিকভাবে যাচাই করতে সহায়ক হয়, যাতে মডেলটি নতুন ডেটার জন্য সাধারণীকৃত (generalized) থাকে।

Content added By

SATT Academy

K-Fold Cross-Validation এর ভূমিকা

188

K-Fold Cross-Validation মেশিন লার্নিং মডেলগুলির পারফরম্যান্স মূল্যায়ন এবং সাধারণীকরণের ক্ষমতা (generalization) পরিমাপ করার একটি জনপ্রিয় এবং কার্যকর পদ্ধতি। এটি মূলত ডেটার উপর মডেল ট্রেনিং এবং টেস্টিংয়ের একটি কার্যকরী উপায়, যা overfitting (অতিরিক্ত প্রশিক্ষণ) এবং underfitting (অধিক প্রশিক্ষণের অভাব) এড়াতে সহায়ক। K-Fold Cross-Validation মডেলের পারফরম্যান্স সঠিকভাবে পরিমাপ করার জন্য বিশেষভাবে উপকারী, যখন ডেটা সীমিত বা ছোট হয়।

K-Fold Cross-Validation এর প্রক্রিয়া

K-Fold Cross-Validation প্রক্রিয়া সাধারণত নিম্নলিখিত ধাপগুলো অনুসরণ করে:

ডেটা ভাগ করা: প্রথমে পুরো ডেটাসেটকে K সমান অংশে (folds) ভাগ করা হয়। এখানে, K হল একটি নম্বর যা আপনি নির্ধারণ করেন (সাধারণত ৫ বা ১০)। প্রতিটি অংশ একটি "fold" হবে।
ট্রেনিং এবং টেস্টিং: প্রতিটি fold একে একে টেস্ট সেট হিসেবে ব্যবহৃত হয়, এবং বাকি K-১ অংশ ট্রেনিং সেট হিসেবে ব্যবহৃত হয়। অর্থাৎ, প্রথমে fold 1 টেস্ট সেট হিসেবে ব্যবহার হয় এবং বাকি K-১ অংশ ট্রেনিং সেট হিসেবে ব্যবহৃত হয়। তারপর fold 2 টেস্ট সেট হিসেবে ব্যবহৃত হয় এবং বাকি অংশ ট্রেনিং সেট হিসেবে ব্যবহৃত হয়, এবং এই প্রক্রিয়া K বার চলতে থাকে।
পারফরম্যান্স পরিমাপ: প্রতিটি fold-এ মডেল ট্রেনিং এবং টেস্টিং করার পর, ফলস্বরূপ মেট্রিক্স (যেমন accuracy, F1-score, বা RMSE) সংগ্রহ করা হয়। শেষে, এই ফলাফলগুলির গড় নেওয়া হয়, যা মডেলের চূড়ান্ত পারফরম্যান্স নির্দেশ করে।

K-Fold Cross-Validation এর সুবিধা

ডেটার পুরো ব্যবহারের সুবিধা:
পুরো ডেটাসেটই ট্রেনিং এবং টেস্টিংয়ের জন্য ব্যবহৃত হয়, কারণ প্রতিটি fold একবার টেস্ট সেট হিসেবে কাজ করে। এর ফলে, এটি bias (পক্ষপাতিত্ব) কমিয়ে দেয় এবং মডেলের পারফরম্যান্স পরিমাপের জন্য আরও নির্ভুল ফলাফল দেয়।
Overfitting কমানো:
K-Fold Cross-Validation মডেলটি বিভিন্ন subsets (folds) দিয়ে পরীক্ষা করা হয়, যা overfitting (অতিরিক্ত প্রশিক্ষণ) বা underfitting (অধিক প্রশিক্ষণের অভাব) থেকে মডেলটিকে রক্ষা করে।
মডেলের পারফরম্যান্সের ভালো মূল্যায়ন:
K-Fold Cross-Validation সাধারণত ছোট ডেটাসেটে বেশি কার্যকরী, কারণ এটি একটি সীমিত সংখ্যক ডেটার উপর মডেলের পারফরম্যান্স মূল্যায়ন করতে সহায়ক হয়।
ফলস্বরূপ গড় স্কোর প্রদান:
একক মেট্রিক্সের পরিবর্তে, K-Fold Cross-Validation মডেলের স্কোরের গড় প্রদান করে, যা আরও নির্ভুল এবং বিশ্বাসযোগ্য ফলাফল প্রদান করে।

K-Fold Cross-Validation এর পরিসীমা

K মান নির্বাচন:
K এর মান নির্বাচন করা গুরুত্বপূর্ণ, কারণ খুব কম K (যেমন K=2 বা K=3) এর ফলে মডেলের পারফরম্যান্স সঠিকভাবে মূল্যায়ন করা সম্ভব না হতে পারে, এবং খুব বড় K (যেমন K=20 বা K=30) এর ফলে কম্পিউটেশনাল খরচ বেশি হতে পারে।
কম্পিউটেশনাল খরচ:
K-Fold Cross-Validation কম্পিউটেশনালভাবে ভারী হতে পারে, বিশেষ করে যখন K এর মান বড় হয় বা ডেটাসেট বড় হয়। প্রতিটি fold এর জন্য আলাদা করে প্রশিক্ষণ ও পরীক্ষা করতে হয়, যা সময় ও প্রক্রিয়া গ্রহণ করে।
ডেটা অসামঞ্জস্য (Imbalanced Data):
যখন ডেটা অসামঞ্জস্যপূর্ণ হয় (যেমন এক শ্রেণির সংখ্যা অন্যটির তুলনায় অনেক বেশি), তখন K-Fold Cross-Validation এর ফলস্বরূপ মেট্রিক্স বিভ্রান্তিকর হতে পারে। এই পরিস্থিতিতে Stratified K-Fold ব্যবহার করা উচিত, যেখানে প্রতিটি fold এ টার্গেট ভেরিয়েবলের শ্রেণীগুলি সমানভাবে বিতরণ করা হয়।

K-Fold Cross-Validation এর উদাহরণ

ধরা যাক, আমাদের একটি ডেটাসেট আছে এবং আমরা K=5 ফোল্ডে Cross-Validation ব্যবহার করতে চাই।

ডেটা ভাগ করা:
ডেটা ৫টি অংশে ভাগ করা হবে। (fold 1, fold 2, fold 3, fold 4, fold 5)
প্রথম fold:
- Fold 1: টেস্ট সেট
- Fold 2, 3, 4, 5: ট্রেনিং সেট
- মডেল ট্রেনিং এবং পারফরম্যান্স পরিমাপ
দ্বিতীয় fold:
- Fold 2: টেস্ট সেট
- Fold 1, 3, 4, 5: ট্রেনিং সেট
- মডেল ট্রেনিং এবং পারফরম্যান্স পরিমাপ

এভাবে পুরো প্রক্রিয়া শেষ হলে, মডেলের পারফরম্যান্সের গড় মেট্রিক্স হিসাব করা হয়।

Stratified K-Fold Cross-Validation

যখন ডেটা অসামঞ্জস্যপূর্ণ (উদাহরণস্বরূপ, একটি ক্লাস অন্যটির তুলনায় অনেক বেশি), তখন Stratified K-Fold Cross-Validation ব্যবহৃত হয়। এটি নিশ্চিত করে যে প্রতিটি fold-এ টার্গেট ভেরিয়েবলের শ্রেণীসমূহের প্রপোরশন সমানভাবে বিতরণ হয়। এতে, মডেলের ফলস্বরূপ আরও সঠিক এবং উপকারী হয়।

সারাংশ

K-Fold Cross-Validation একটি শক্তিশালী টুল যা মডেলের পারফরম্যান্স পরিমাপের জন্য ব্যবহৃত হয়। এটি training set এবং test set এর মধ্যে একটি কার্যকরী ভারসাম্য বজায় রাখে এবং মডেলের সাধারণীকরণের ক্ষমতা সঠিকভাবে মূল্যায়ন করতে সহায়ক হয়। তবে, এর কিছু সীমাবদ্ধতা যেমন কম্পিউটেশনাল খরচ এবং ডেটার অসামঞ্জস্যপূর্ণতা ইত্যাদি থাকতে পারে, যেগুলি Stratified K-Fold Cross-Validation এর মাধ্যমে সমাধান করা যেতে পারে।

Content added By

SATT Academy

Stratified K-Fold Cross-Validation

292

Stratified K-Fold Cross-Validation একটি উন্নত রূপ K-Fold Cross-Validation এর, যা বিশেষভাবে ক্লাস ইমব্যালেন্স (class imbalance) সমস্যার সমাধান করতে ব্যবহৃত হয়। K-Fold Cross-Validation এমন একটি কৌশল যেখানে ডেটা কে K সংখ্যক ফোল্ডে ভাগ করা হয় এবং প্রতিটি ফোল্ডে একটি নির্দিষ্ট অংশ ট্রেনিং এবং বাকি অংশ টেস্টিং হিসেবে ব্যবহৃত হয়। Stratified K-Fold Cross-Validation এই পদ্ধতির একটি উন্নত রূপ যেখানে প্রতিটি ফোল্ডের মধ্যে লেবেলস বা ক্লাস এর একটি সমান ভগ্নাংশ (proportional split) রাখা হয়।

এটি বিশেষভাবে ব্যবহৃত হয় যখন ক্লাসে ভারসাম্য না থাকে, অর্থাৎ কিছু ক্লাস অন্যান্য ক্লাসগুলোর চেয়ে অনেক বেশি উপস্থিত থাকে (যেমন, স্প্যাম বা নন-স্প্যাম ক্লাসে ইমেইল ডেটাতে)। এই অবস্থায় Stratified K-Fold নিশ্চিত করে যে প্রতিটি ফোল্ডে ক্লাসের অনুপাত মূল ডেটাসেটের মতোই থাকবে।

Stratified K-Fold Cross-Validation এর প্রক্রিয়া

ডেটা ভাগ করা:
ডেটাকে K সংখ্যক সমান অংশে ভাগ করা হয়। তবে, Stratified K-Fold Cross-Validation নিশ্চিত করে যে প্রতিটি ফোল্ডে মূল ডেটাসেটের মতোই ক্লাসের অনুপাত থাকবে। উদাহরণস্বরূপ, যদি আপনার ডেটাসেটে 70% ক্লাস 1 এবং 30% ক্লাস 2 থাকে, তবে প্রতিটি ফোল্ডে একই অনুপাত বজায় থাকবে।
মডেল ট্রেনিং এবং টেস্টিং:
প্রতিটি ফোল্ডকে একবার টেস্ট সেট হিসেবে এবং বাকি ফোল্ডগুলোকে ট্রেনিং সেট হিসেবে ব্যবহার করা হয়। এই প্রক্রিয়া মোট K বার করা হয়, এবং প্রতিবার আলাদা ফোল্ড টেস্ট সেট হিসেবে ব্যবহৃত হয়।
পারফরম্যান্স পরিমাপ:
প্রতিটি ফোল্ডে মডেলের পারফরম্যান্স মূল্যায়ন করা হয় এবং সমস্ত ফোল্ডের ফলাফল গড়ে নিয়ে একটি সামগ্রিক পারফরম্যান্স স্কোর তৈরি করা হয়।

Stratified K-Fold Cross-Validation এর সুবিধা

ক্লাস ইমব্যালেন্স মোকাবেলা করা:
Stratified K-Fold নিশ্চিত করে যে প্রতিটি ফোল্ডে ক্লাসের অনুপাত ঠিক থাকে, যা ক্লাস ইমব্যালেন্স সমস্যা সমাধান করতে সাহায্য করে এবং মডেলের সঠিক মূল্যায়ন নিশ্চিত করে।
একটি নির্ভরযোগ্য পারফরম্যান্স পরিমাপ:
এই পদ্ধতি K ফোল্ডে ক্রস-ভ্যালিডেশন পরিচালনা করার ফলে মডেলের পারফরম্যান্সের একটি স্থিতিশীল এবং নির্ভরযোগ্য পরিমাপ প্রদান করে।
ডেটার সর্বোচ্চ ব্যবহার:
প্রতিটি ডেটা পয়েন্ট একাধিকবার ট্রেনিং এবং টেস্টিং সেট হিসেবে ব্যবহৃত হয়, যা মডেলের সাধারণীকরণ ক্ষমতা বাড়ায়।

Scikit-Learn এ Stratified K-Fold Cross-Validation ব্যবহার

Scikit-Learn লাইব্রেরিতে StratifiedKFold ক্লাস প্রদান করা হয়েছে, যা এই পদ্ধতি ব্যবহার করতে সহায়ক। এখানে কিভাবে এটি ব্যবহার করা হয় তার একটি উদাহরণ:

from sklearn.model_selection import StratifiedKFold
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# একটি কৃত্রিম ডেটাসেট তৈরি করা
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, 
                            n_clusters_per_class=1, weights=[0.9, 0.1], random_state=42)

# Stratified K-Fold Cross-Validation
kf = StratifiedKFold(n_splits=5)  # 5 ফোল্ডে ভাগ করা

# মডেল তৈরি
model = LogisticRegression()

# প্রতিটি ফোল্ডে ট্রেনিং এবং টেস্টিং করা
accuracies = []
for train_index, test_index in kf.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # মডেল প্রশিক্ষণ
    model.fit(X_train, y_train)
    
    # টেস্ট ডেটাতে পূর্বাভাস
    y_pred = model.predict(X_test)
    
    # একুরেসি মাপা
    accuracies.append(accuracy_score(y_test, y_pred))

# ফলাফল
print(f"Average accuracy: {sum(accuracies)/len(accuracies)}")

কোড ব্যাখ্যা:

make_classification(): এটি একটি কৃত্রিম ডেটাসেট তৈরি করতে ব্যবহৃত হয়, যা দুটি শ্রেণী সহ একটি ক্লাসিফিকেশন সমস্যা তৈরি করে।
StratifiedKFold(n_splits=5): ডেটাকে 5 টি ফোল্ডে ভাগ করে, এবং প্রতিটি ফোল্ডে ক্লাসের অনুপাতের সমানতা বজায় রাখে।
kf.split(X, y): এই ফাংশনটি X (ইনপুট ফিচার) এবং y (লেবেল) এর জন্য ট্রেন এবং টেস্ট ইনডেক্স প্রদান করে।
accuracy_score(): মডেলের পূর্বাভাস এবং আসল ফলাফলের মধ্যে একুরেসি হিসাব করা হয়।

সারাংশ

Stratified K-Fold Cross-Validation একটি শক্তিশালী কৌশল, যা মডেলের মূল্যায়নের সময় ক্লাস ইমব্যালেন্স সমস্যা সমাধান করে এবং মডেলের পারফরম্যান্সের সঠিক মূল্যায়ন নিশ্চিত করে। এটি বিশেষত কেসগুলিতে গুরুত্বপূর্ণ যেখানে ডেটাসেটে বিভিন্ন শ্রেণীর অনুপাত অসমতল থাকে। Scikit-Learn এ এটি খুবই সহজভাবে ব্যবহার করা যায় এবং মডেল প্রশিক্ষণ ও টেস্টিং এর জন্য একটি নির্ভরযোগ্য উপায় সরবরাহ করে।

Content added By

SATT Academy

Scikit-Learn পরিচিতি Scikit-Learn ইনস্টলেশন এবং সেটআপ Scikit-Learn এর মৌলিক ধারণা Data Preprocessing Supervised Learning এর বেসিক ধারণা

Train-Test Split এবং Cross-Validation

১. Train-Test Split

প্রক্রিয়া:

উদাহরণ:

উপকারিতা:

সীমাবদ্ধতা:

২. Cross-Validation

প্রক্রিয়া:

উদাহরণ:

উপকারিতা:

সীমাবদ্ধতা:

Train-Test Split vs Cross-Validation

সারাংশ

Train-Test Split এর প্রয়োজনীয়তা

১. মডেল প্রশিক্ষণ এবং মূল্যায়ন আলাদা করা

২. মডেলের সাধারণীকরণ ক্ষমতা যাচাই

৩. ওভারফিটিং এবং আন্ডারফিটিং থেকে রক্ষা

৪. মডেল মূল্যায়ন এবং পারফরম্যান্স পরিমাপ

৫. মডেল সিলেকশন

৬. কাস্টম মডেল টিউনিং এবং ক্রস-ভ্যালিডেশন

সারাংশ

train_test_split() ফাংশন ব্যবহার

train_test_split() ফাংশনের সিনট্যাক্স:

প্যারামিটার:

train_test_split() ফাংশন ব্যবহার উদাহরণ:

1. সাধারণ উদাহরণ

2. pandas DataFrame এর সাথে ব্যবহার:

train_test_split() এর কিছু গুরুত্বপূর্ণ পয়েন্ট:

সারাংশ:

K-Fold Cross-Validation এর ভূমিকা

K-Fold Cross-Validation এর প্রক্রিয়া

K-Fold Cross-Validation এর সুবিধা

K-Fold Cross-Validation এর পরিসীমা

K-Fold Cross-Validation এর উদাহরণ

Stratified K-Fold Cross-Validation

সারাংশ

Stratified K-Fold Cross-Validation

Stratified K-Fold Cross-Validation এর প্রক্রিয়া

Stratified K-Fold Cross-Validation এর সুবিধা

Scikit-Learn এ Stratified K-Fold Cross-Validation ব্যবহার

কোড ব্যাখ্যা:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!

`train_test_split()` ফাংশনের সিনট্যাক্স:

`train_test_split()` ফাংশন ব্যবহার উদাহরণ:

`train_test_split()` এর কিছু গুরুত্বপূর্ণ পয়েন্ট: